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摘要 : 


【 目的 】 帮助 企 业 实现 精准 营销 ， 准 确 识别 企 业 用 户 的 群体 特征 。[ 方法 】 对 微 博文 本 进行 情感 分 析 , 通 
过 Ward 聚 类 将 微 博 发 表 者 聚 类 成 9 类 群体 ,并 对 微 博 用 户 进行 影响 力 识 别 , 从 情感 和 影响 力 两 个 维度 对 各 个 用 


户 群 体 进行 分 析 ， 利 用 一 种 改进 的 客户 价值 矩阵 方法 辨别 不 同 用 户 群 体 的 特征 。【 结果 ] 实验 结果 表明 : 9 类 用 户 
群体 对 A 手机 品牌 情感 倾向 存在 较 大 的 差异 。A 手机 更 受 喜 欢 追 赶 时 刻 的 女性 群体 以 及 从 事 IT 行业 的 用 户 青睐 ， 
并 且 该 群体 影响 力 较 大 ,能 更 有 效 地 影响 消费 者 购买 该 手机 。[ 局 限 】 在 进行 用 户 影响 力 识 别 时 ,， 仅 考虑 常用 指 


标 ,未 考虑 用 户 微 博 被 转发 之 后 的 级 联 影响 力 以 及 其 他 影响 指标 。[ 结论 ] 本 文 方法 能 够 较为 准确 地 识别 企业 用 


户 的 群体 特征 ,为 企业 实现 精准 营销 提供 帮助 。 
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Web2.0 时 代 众 生 了 大 量 的 新 型 即时 通讯 工具 , 微 
博 就 是 典型 之 一 , 不 仅 能 满足 现代 社会 大 众 对 信息 知 
晓 权 的 需求 ， 更 充分 满足 了 大 众 想 表 达 自 身 意 见 的 欲 
望 。 据 中 国 互联 网 络 信息 中 心 (CNNIC) 公 布 的 第 39 次 
中 国 互联 网 络 发 展 状况 统计 报告 , 截至 2016 年 12 月 ， 
中 国 网 民 规模 已 达 7.31 亿 , 微 博 用 户 使 用 率 持续 上 升 
达 37.1%l1, 不 难 发 现 , 微 博 用 户 已 经 成 为 中 国 网 民 的 
主要 组 成 部 分 其 婴 论 影响 力 不 可 小 舰 。 人 研究 微 博 平 
台 的 用 户 群 体 特征 ,进而 实现 大 数据 精准 营销 , 已 成 
为 热门 研究 课题 。 本 文选 取 国 内 微 博 平台 一 一 新 浪 微 博 
作为 数据 收集 来 源 , 以 A 手机 为 例 , 探讨 该 类 手机 产品 
的 客户 群体 特征 ,进一步 辅助 对 该 产品 进行 精准 营销 。 


2 研究 综述 


国内 外 关于 社交 媒体 上 的 用 户 群 体 特征 的 研究 较 
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多 , Li 研究 了 “中 国 大 妈 ” 这 类 群体 使 用 社交 媒体 活动 
的 动机 和 特点 , 分 析 她 们 对 中 国 社会 产生 的 积极 或 消 
极 的 影响 。Koustuv 等 中 收集 Facebook 广告 平台 的 数 
据 , 分 析 美 国 各 州 、 性 别 、 年 龄 、 种 族 亲 和 度 以 及 教 
育 程 度 之 间 的 差异 。 在 算法 设计 方面 , Gonzalez- Pardo 
等 外 提出 一 种 基于 蚁 群 化 优化 算法 (Ant Colony 
Optimization，ACO) 的 改进 方法 Bioinspired， 该 算 
法 对 给 定 网 络 中 的 任 一 用 户 , 能 够 自动 确定 构成 他 们 
兴趣 圈 的 不 同 用 户 ， 从 而 进行 群体 特征 识别 。 Han 等 站 
研究 用 户 群 体 行 为 对 信息 传播 的 影响 ,提供 一 个 更 好 
地 分 析 社 交 网络 用 户 群 体 行为 特征 以 对 信息 传播 产生 
影响 的 参考 指标 。Step 等 四 使 用 和 迭代 法 进行 主题 分 析 ， 
发 现 大 多 数 内 容 主题 表达 了 产品 的 归属 以 及 相关 吸烟 
活动 ,发布 最 多 的 用 户 是 男生 且 年 龄 较 小 。 

国内 近 几 年 ， 基 于 大 数据 的 用 户 群 体 特征 分 析 是 
研究 热点 , 在 新 浪 微 博 的 研究 上 ,， 曾 鸿 等 四 构建 了 大 
数据 环境 下 的 用 户 画 像 , 选取 当代 十 分 具有 代表 性 的 
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明星 ,研究 他 们 的 粉丝 群体 特征 。 彭 希 羡 等 四 以 新 浪 微 
博 为 视角 , 研究 新 浪 微 博 上 不 同 的 用 户 性 别 、 认 证 情 
况 、 地 区 、 个 性 域名 、 了 昵称 以 及 描述 等 指标 进行 统计 
分 析 。 在 其 他 社交 媒体 的 用 户 群 体 特征 研究 上 ， 陈 梅 
梅 等 中 与 淘宝 网 合作 依据 全 国 网 络 消费 者 的 调查 数据 ， 
使 用 消费 决策 过 程 理论 模型 ,对 比分 析 我 国 网 络 消费 
者 基本 属性 及 购买 行为 特征 ， 发现 我 国 网 络 消费 者 主 
要 关注 产品 功能 、 规 格 和 价格 ， 且 商品 价格 承受 能 

与 性 别 、 年 龄 存在 显著 关系 。 符 丹 等 中 从 “ 海 淘 族 ” 的 
用 户 属性 、 购 物 行为 和 购物 体验 三 个 维度 出 发 , 分 析 
“ 海 淘 族 ” 形 成 的 影响 因素 及 其 典型 特征 。 张 继 东 由" 建 
立 了 移动 社交 网 络 用 户 行 为 和 偏好 的 预测 机 制 。 

可 以 看 出 , 国内 外 对 于 用 户 群体 特征 的 分 析 , 不 
同 的 学 者 考虑 的 角度 以 及 定义 的 指标 不 尽 相 同 ， 而 本 
文 则 是 在 结合 微 博文 本 情感 分 析 技 术 、 微 博 用 户 影响 
力 识 别 技术 以 及 消费 者 市 场 划分 技术 等 的 基础 上 , 设 
计 一 种 适用 于 微 博 等 社交 网 络 的 关于 消费 者 群体 的 特 
征 分 析 技 术 。 

目前 ， 国 内 外 学 者 在 用 户 情感 以 及 用 户 影响 力 两 
方面 的 研究 都 较 多 , 但 从 用 户 情感 和 用 户 影响 力 两 个 
维度 衡量 用 户 群 体 特征 ,进而 进行 精准 营销 的 研究 较 
少 。Giatsoglou 等 5 提出 一 种 基于 机 器 学 习 和 文本 向 
量 表示 的 新 方法 , 能 快速 、 灵 活 地 检测 出 情感 片段 。 
Suresh 等 (采用 基于 聚 类 的 情感 分 析 方 法 , 提出 一 种 
新 的 模糊 聚 类 模型 。 在 用 户 影 响 力 研究 方面 , Jendoubi 
等 (4 提出 基于 Twitter 的 两 种 用 户 影响 力 最 大 化 模型 ， 
使 用 信和 念 函 数理 论 估计 用 户 影响 。Francalanci 等 上 5 开 
发 了 一 种 基于 Twitter 网 络 探索 的 可 视 化 工具 , 通过 浏 
览 朋友 的 网 络 , 根据 分 享 内 容 的 实际 影响 识别 关键 影 
响 者 。Lahuerta-Otero04 在 识别 有 影响 力 的 用 户 基础 上 ， 
分 析 具 有 影响 力 的 Twitter 用 户 的 微 博 博文 内 容 和 数 
量 的 特点 。 这 为 利用 社交 网 络 实施 营销 提供 了 新 的 切 
人 点 。 

本 文 以 “新 浪 微 博 ”" 用 户 数 据 为 例 , 采用 大 数据 扑 
虫 技 术 和 机 带 学 习 方 法 对 文本 进行 情感 分 析 ， 再 将 微 
博 发 表 者 进行 聚 类 ,归纳 出 不 同类 别 的 用 户 群体 。 同 
时 采用 未 确 知 测度 算法 对 微 博 群体 的 不 同 用 户 进行 影 
响 力 识别 。 最 后 将 各 个 用 户 群 体 在 情感 倾向 和 影响 力 
两 个 不 同 维度 上 进行 综合 分 析 , 利用 一 种 改进 的 客户 
价值 矩阵 的 方法 辨别 出 不 同 用 户 群 体 的 特征 。 
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3 研究 设计 


3.1 基于 改进 词典 的 情感 分 析 

(1) 数据 获取 

利用 开放 源码 的 网 页 服务 器 Apache2.2, 通过 新 
浪 微 博 中 提供 的 API 接口 , 在 授权 的 第 三 方 网 站 上 获 
取 数 据 。 收 集 数 据 时 使 用 的 关键 字 ， 主 要 是 关于 与 A 
手机 紧密 相连 的 词组 。 

中指 定 采集 对 象 。 采 集 器 支持 对 大 量 用 户 批量 采集 数 
据 ， 但 需要 把 用 户 微 博 地 址 全 部 导入 至 循环 列表 中 。 

@) 设 置 数据 提取 字段 。 根 据 研 究 需求 ， 指 定 网 页 上 需要 
抓 取 的 数据 位 置 及 字段 名 。 

图 设置 翻 页 循环 。 因 为 主题 下 的 微 博 数量 较 多 ,无 法 全 
部 显示 在 一 页 ， 所 以 需要 设计 翻 页 循环 。 

图 数据 采集 。 在 完成 采集 流程 后 ,就 可 以 开始 采集 数 
据 。 启 动 后 , 采集 器 会 根据 设置 的 流程 ,对 指定 的 页 面 网 址 
依次 进行 采集 。 

@ 数 据 导 出 。 在 采集 任务 完成 后 ， 可 以 将 采集 到 的 数据 
导出 到 Excel， 以 便 进 行 数据 预 处 理 。 

(2) 数据 清洗 

通过 观察 收集 的 数据 发 现 ,数据 具有 随意 性 、 不 
完整 性 和 多 样 性 等 特点 ， 因 此 , 本 文 数据 清洗 具体 步 
又 如 下 : 

通过 Excel 进行 数据 清洗 和 预 处 理 ， 删除 乱码 数据 、 不 
完整 数据 以 及 无 数据 的 记录 以 及 原始 数据 中 的 垃圾 广告 ; 

人 @) 采 用 volookup 函数 进行 查找 删除 ,去 除 步 又 四 清洗 
后 剩余 数据 中 的 相同 微 博 用 户 ， 同 时 去 除 剩 余数 据 中 的 相 
同 微 博 内 容 的 数据 ; 

@@ 使 用 正则 表达 式 ， 删 除 剩 余 的 有 效 微 博 文本 中 包含 
的 网 址 信息 (URL)， 只 保留 文本 中 的 文字 、 数 字 、 标 点 和 表 
情 符号 等 信息 。 将 网 址 去 除 的 正则 表达 式 定义 为 : 

http: /[^ \u4e00 — \u9fa5] 

(3) 基于 改进 的 情感 词典 的 微 博 情感 分 析 

进行 情感 分 析 时 ,在 文献 [17] 的 基础 上 改进 , 创 
新 性 地 提出 微 博 表 情 识 别 和 转折 词 的 处 理 两 种 新 的 方 
法 。 在 此 基础 上 进行 的 情感 分 析 算 法 不 仅 极 大 提高 了 
文本 情感 识别 的 准确 度 ,而 且 在 文本 处 理 过 于 复杂 、 
不 易 识别 的 情况 下 ,可 通过 微 博 表情 识别 技术 迅速 识 
别 出 用 户 情 感 倾 向 。 

转折 词 处 理 

考虑 到 转折 连词 的 特点 ， 在 处 理 转折 词 时 ， 本 文 提出 一 
种 加 权 的 计算 转折 词 前 后 句 情 感 倾向 值 的 方法 ,将 句子 以 转 
折 词 为 界线 分 为 两 部 分 , 根据 知 网 情感 词典 的 计算 方法 分 
别 计算 两 部 分 的 情感 倾向 值 。 最 后 将 两 部 分 分 别 来 以 给 定 的 
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权重 再 相 加 ,得 出 整个 句子 的 最 终 情感 倾向 值 。 

在 确定 权重 时 , 根据 汉语 语法 知识 , 需要 确保 转折 词 后 
部 分 的 情感 分 值 权重 大 于 转折 词 前 的 部 分 LM。 使 用 Delphi 
专家 咨询 法 通过 比较 ,以 此 确定 句子 前 后 两 部 分 力 和 bp 的 
权重 a 和。 处 理 带 有 转折 词 的 复句 如 公式 (1) 所 示 。 

S(sen)=axS(fp)+BxS(bp) Qo <p,a+B=1 (1) 

@) 表 情 识别 

在 处 理 表情 符号 时 ， 采 用 内 容 分 析 法 。 内 容 分 析 法 是 一 
种 对 研究 对 象 内 容 进 行 深入 研究 和 探讨 ， 总 结 其 规律 的 定 
性 和 定量 相 结合 的 科学 方法 。 传 播 学 上 把 它 定 义 为 一 种 系统 
地 、 客 观 地 定量 地 描绘 沟通 交流 的 明显 内 容 的 研究 方法 09]。 

1) 确 定 微 博文 本 中 每 一 个 表情 符号 为 一 个 分 析 单 元 ; 

2) 查 阅 相 关 文 献 以 及 根据 内 容 分 析 法 ,制定 详细 的 分 析 
单元 归 类 的 标准 ， 确 定 每 一 个 类 目的 情感 值 。 在 研究 中 ， 由 
于 认定 表情 符号 不 仅 能 传递 微 博 发 表 者 较真 实 的 情感 ， 而 
且 还 能 从 不 同 的 表情 符号 中 识别 出 发 表 者 通过 这 些 表情 抒 
发 的 情感 的 强 弱 。 所 以 在 制定 类 目 时 ， 除 了 要 使 表情 符号 能 
区 分 情感 倾向 外 ,还 应 赋予 每 一 个 表情 符号 情感 的 强度 。 所 
建立 的 类 目 必须 满足 互 斥 性 、 完 备 性 和 直观 性 ; 

3) 邀 请 4 位 编码 员 对 每 一 个 分 析 单 元 做 编码 ,将 不 同 的 
表情 归 入 不 同 的 类 目 中 。 对 编码 人 员 进 行 培训 ,告知 他 们 本 
实验 的 意图 以 及 具体 实施 方法 及 步骤 。 编 码 人 员 进 行 前 后 4 
轮 编码 ， 直 到 可 信和 度 检验 结果 达到 标准 为 止 。 最 后 统计 每 一 
个 表情 符号 出 现在 不 同类 目 中 的 频数 ,得 到 最 终 的 表情 符 
号 划分 结果 ; 

4) 统 计 每 一 个 表情 符号 出 现在 不 同类 目 中 的 频数 ， 以 此 
对 表情 符号 进行 最 终 的 归 类 。 

(4) 用 户 情感 倾向 计算 流程 

微 博 文本 的 最 终 情感 倾向 值 通 过 上 述 几 种 词组 和 
短语 的 情感 值 求 和 得 到 ， 当 值 大 于 0 时 , 表明 微 博文 
本 所 表述 的 情感 为 正面 情感 ; 当 值 小 于 0 时 ,所 表述 
情感 为 负面 情感 ; 当 值 等 于 0 时 ,所 表述 情感 为 中 立 
情感 。 最 终 的 情感 倾向 值 计 算 如 公式 (2) 所 示 。 

S(s)=axS(fp)+PBxS(bp)+S(e) oo<p,a+p=1 
(2) 

其 中 ,8$() 为 复句 中 转折 词 前 的 部 分 情感 倾向 
值 , S(bp) 为 转折 词 后 的 部 分 情感 倾向 值 , S(e) 为 表情 符 
号 的 情感 倾向 值 。 

3.2 用户 影响 力 识 别 

用 户 影 响 力 识别 时 , 首先 运用 离 差 最 大 化 法 对 评 
价 指标 体系 进行 第 选 ,再 利用 分 割 聚 类 的 方法 确定 指 
标 评价 等 级 制度 "在 此 基础 上 计算 每 一 个 用 户 的 单 
标 测 度 ， 利 用 信息 确 定 每 个 用 户 在 每 个 指标 上 的 
权重 , 再 根据 单 指标 测度 和 矩阵 以 及 指标 的 权重 确定 综 
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合 指 标 测度 和 矩阵， 最 后 根据 置信 度 准则 确定 用 户 影响 
力 等 级 。 

(1) 评价 指标 体系 的 选取 

本 文选 取 粉 丝 数 、 微 博 被 评论 数 、 微 博 被 转发 数 
三 个 指标 ,同时 创新 性 地 加 入 了 粉丝 数 / 关 注 数 、 粉 
丝 数 / 原 创 微 博 数 两 个 指标 评价 一 个 用 户 的 影响 力 。 

粉丝 数 : 该 指标 表明 微 博 用 户 被 其 他 用 户 所 关注 的 
程度 ,是 用 户 影 响 力 最 直接 的 体现 。 

@) 微 博 被 评论 数 : 该 数值 越 大 说 明 该 用 户 传达 的 信息 
影响 范围 就 越 广 , 该 用 户 的 影响 力 就 越 大 。 

@ 微 博 被 转发 数 : 该 数值 越 大 不 仅 能 说 明 微 博 用 户 的 
微 博 信息 传达 给 其 粉丝 这 种 直接 的 影响 力 越 大 ,还 包括 该 
信息 能 被 传达 给 粉丝 的 粉丝 这 种 间接 的 影响 力 。 

@@ 粉 丝 数 /关注 数 : 在 微 博 中 ， 有 人 通过 购买 粉丝 的 方 
式 增加 自己 的 粉丝 数 ， 提升 人 气 ， 再 与 其 他 微 博 用 户 交易 ， 
通过 大 量 关注 他 人 的 微 博 来 收取 佣金 ,为 了 在 实验 中 取得 较 
真实 的 用 户 影 响 力 值 ， 避 免 这 种 毫 无 意义 的 “ 互 粉 现象 " 可 
以 利用 “粉丝 数 /关注 数 "这 一 新 的 变量 代替 原来 的 “关注 数 ” 
指标 。 

@ 粉 丝 数 /原创 微 博 数 : 虽然 原创 微 博 数 标 志 了 一 个 微 
博 用 户 在 某 一 话题 中 的 参与 度 ， 但 是 如 果 发 表 的 微 博 不 能 
更 有 效 地 被 其 他 用 户 接受 ,那么 这 些微 博信 息 将 是 无 效 信 
息 。 所以， 本 文 提出 使 用 “粉丝 数 /原创 微 博 数 ”这 一 变量 代替 
原来 的 “原创 微 博 数 "。 

(2) 评价 指标 等 级 标准 的 划分 

本 文 将 用 户 根据 自身 影响 力 划 分 为 : 意见 领袖 、 
意见 活跃 分 子 和 普通 受众 三 个 等 级 。 使 用 分 割 聚 类 算 
法 中 的 K-means 算法 将 每 一 个 评价 指标 下 关于 每 个 评 
价 对 象 的 值 聚 为 三 类 ,再 根据 各 个 类 别 中 的 最 小 值 作 
为 等 级 划分 标准 的 临界 值 C。 

该 算法 在 处 理 数据 量 较 大 的 聚 类 时 ， 具 有 可 伸缩 
性 、 高 效 性 以 及 可 以 同时 用 于 多 种 数据 类 型 的 优点 ， 
其 算法 的 时 间 复 杂 度 上 限 为 : Omxkxt), 其 中 n 代 表 
对 和 象 的 数目 , t 为 迭代 的 次 数 。 

(3) 基于 未 确 知 理论 的 用 户 影 响 力 评 价 模型 算法 
通过 对 评价 指标 体系 及 其 标准 的 确定 后 , 利用 未 
确 知 理论 算法 进行 用 户 影响 力 值 的 测算 。 

@ 未 确 知 信 息 测 度 模型 

设 mx 为 待 评价 的 对 象 ， 组 成 评价 对 象 空 间 
={XyX2,…sXn}) 。 对 于 xe 钱 ， 有 n 个 评价 指标 
了 ,了 ,…,1， 它 们 组 成 评价 指标 空间 了 ={,7,,…,7,} 。 对 于 
评价 对 象 空间 了 中 的 每 一 个 评价 指标 x， 它 在 茶 一 个 评价 指 
标 厂 下 的 观测 值 总 不 同时 ,根据 之 前 确定 好 的 评价 等 级 标准 ， 


将 它 划 入 不 同 的 等 级 标准 区 间 Ci 的 程度 信也 会 不 同 ， 其 中 
Xt 二 A(Xj sch) 。 那 么 可 以 认为 条 是 观测 值 效 使 对 象 寺 处 于 
某 种 等 级 标准 程度 的 一 种 未 确 知 测度 ， 它 必须 满足 一 般 测 
度 的 三 条 准则 : 归 一 性 、 可 加 性 和 非 负 有 界 性 P]。 将 测算 出 
的 未 确 知 测度 写成 对 于 对 象 工 的 单 指标 测度 矩阵 形式 户 ] 如 
公式 (3) 所 示 。 


1 2 I Ny 
bl cy Ye hb, 

(Nir )nxp 六 : : 加 : (3) 
| 42 的 hp 


其 中 ，M11<4i2< < 或 人 >Ma> > 

@ 信 息 灶 确 定 评价 指标 系数 

观测 值 雹 使 对 象 x 处 于 茶 种 等 级 标准 程度 的 未 确 知 测度 
如 公式 (4) 所 示 。 

7 =(4iDp4j2 Ni) (4) 

当 方 中 的 每 个 分 量 取 值 越 集中 , wj 取 值 越 大 ; 当 广 中 的 每 
个 分 量 取 值 越 分 散 ， wj 取 值 越 小 。 设 关于 测度 员 的 信息 炉 中 
如 公式 (5) 所 示 。 


p 
Hj=-2 hlogh (5) 
k=1 
根据 信息 炉 理论 ， 对 评价 指标 帮 相 对 重要 程度 的 不 确定 
性 可 由 焙 权 值 表示 中 如 公式 (6) 所 示 。 
1 Pp 
万 =1+ A log, 6 
/ 二 六 "OBA (6) 
(加 综合 测度 评价 向 量 
由 关于 评价 对 象 X 的 单 指标 测度 评价 矩阵 和 权重 向 量 
玩 可 求 出 多 指标 综合 评价 测度 向 量 E4 如 公式 (7) 所 示 。 
A=W:(hp )nxp 0 


@ 评 价 准则 

由 于 之 前 确定 好 的 评价 等 级 是 有 序 的 ， 故 在 此 不 适宜 
使 用 最 大 测度 识别 准则 , 改 为 使 用 置信 和 度 识别 准则 。 通 常设 
置信 度 0(0.5S<O < 的 值 为 0.6 或 0.7， 如 公式 (8)P9 所 示 。 


Kk 
-min | >41<k<p| (8) 
zt 


则 判定 评价 对 象 x 属于 评价 等 级 ck 。 
3.3 ”用户 群 体 识别 

针对 于 微 博 及 微 博 中 的 用 户 特 点 , 采用 Ward 聚 
类 方法 对 目标 对 象 进行 聚 类 分 析 , 识别 出 不 同 特性 
的 用 户 群体 。 Ward 聚 类 方法 的 基本 做 法 和 许多 聚 类 方 
法 一 样 , 都 是 先 把 每 个 对 象 看 成 独立 的 一 类 , 逐步 归 
为 更 大 的 类 。 类 别 每 缩减 一 次 , 离 差 平方 和 就 会 增 大 ， 
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合并 使 得 5 值 增加 最 小 的 两 个 类 别 , 直到 所 有 的 对 象 
都 归 为 一 类 为 止 。 
3.4 ”用 户 群 体 特征 分 析 

本 文 针对 基于 微 博 的 客户 细 分 及 用 户 特征 识别 
问题 ， 创 新 性 地 提出 一 种 改进 的 客户 价值 和 矩阵。 使 用 
用 户 群 体 平 均 影 响 力 和 用 户 群 体 对 产品 的 平均 情感 
倾向 值 两 项 指标 代替 传统 客户 价值 矩阵 中 平均 消费 
额度 以 及 消费 频率 两 项 指标 作为 分 析 的 两 个 维度 。 分 
别 计算 出 每 个 用 户 群 体 类 别 的 群体 平均 影响 力 值 7 
和 和 群体 总 体 情 感 倾 向 值 9 ， 再 在 两 个 维度 建立 的 矩 
阵 上 进行 分 析 。4 个 象限 的 客户 类 型 借鉴 “波士顿 矩 
阵 ” 中 对 4 种 不 同 产品 的 命名 方法 , 将 用 户 群 体 分 为 
“明星 顾客 ”,“ 现 金牛 顾客 ”,“ 问 号 顾客 ”以 及 “ 瘦 狗 顾 
容 " 轩 。 


4 实证 分 析 


数据 来 源 为 新 浪 微 博 ， 实 验 研究 的 产品 对 象 为 A 
手机 。 选 取 在 A 手机 上 市 后 两 个 月 的 微 博 数据 (2016 
年 10 月 28 日 -2016 年 12 月 28 日 ), 共 101 123 条 , 涉 
及 微 博 用 户 68 892 名 ,在 对 数据 进行 清洗 过 滤 后 ， 可 
用 数据 剩 下 10 853 条 , 涉及 微 博 用 户 7 043 名 。 吻 除 
微 博 内 容 相同 的 数据 后 ， 随 机 选取 5 000 位 微 博 用 户 
关于 A 手机 产品 的 一 条 微 博 ,作为 实验 数据 。 

4.1 基于 改进 的 情感 词典 的 微 博 情感 分 析 

(1) 转折 词 处 理 

共 邀 请 20 名 专家 对 句子 转折 词 前 后 两 部 分 给 予 
赋 权 。 这 20 名 专家 均 是 在 汉语 言 文 学 、 数 学 以 及 心理 
学 等 领域 有 一 定 研究 成 果 的 专业 人 士 。 其 中 教授 6 名 ， 
副教授 8 名 , 在 读 博 士 生 6 名 ; 平均 年 龄 为 42.63 岁 ， 
从 事 相 关 研 究 平均 年 限 为 23.45 年 ; 专业 方向 : 汉语 言 
文学 7 名 , 数学 7 名 , 心理 学 6 名 。 通 过 对 专家 一 致 性 
检验 , 第 3 轮 专家 一 致 性 检验 结果 为 0.82>0.80, 具有 
较 高 的 可 靠 性 。 最 终 的 赋 权 结果 为 : 句子 转折 词 前 部 
分 权重 a 为 0.3735, 后 半 部 分 权重 为 0.6265。 

(2) 表情 符号 处 理 

从 实验 数据 中 总 共 收 集 到 微 博 表情 88 个 , 本 文 确 
定 7 个 表情 符号 类 目 及 其 相对 应 的 情感 值 的 表情 符 
号 。 表 1 为 表情 符号 的 最 终 划分 结果 。 经 过 4 轮 实验 ， 
在 第 4 轮 结果 的 Kappa 值 为 0.81>0.8, 是 较 好 的 可 信 
度 检验 结果 ， 如 表 2 所 示 。 
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攻 1] 表情 符号 划分 最 终结 果 


类 目 名 称 情感 值 表情 符号 
很 好 2:5 笑 哈哈 ; 大 笑 ; 嘻 哮 ; 爱 你 ; 给 力 ; 威武 ; 顶 ; 鼓掌 ; 赞 ; good; gst 耐 你 ; 好 开心 
好 2 花心 ; 可 怜 ; 好 激动 ; 江南 style; 偷 笑 ; 亲 亲 ; 抱 抱 ; 挤 眼 ; ala 加 油 ; 爱心 ; 耶 
较 好 LS It 切 克 闹 ; din 推 撞 ; 兔子 ; 互 粉 ; 礼物 ; 微笑 ; 可爱; 钱 ; 嘴 饮 ; ok; ala 蹦 ; 害 着 ; 
稍 好 0.5 转发 ; 围观 ; 熊猫 ; 奥 特 曼 ; 酷 ; 猪头 ; 蜡烛 ; 坏 笑 ; 勾引 
没 感 觉 0 抠 描 ; 浮云 ; 神 马 ; 时 间 ; 话 简 ; 疑问 ; 思考 ; 国旗 ; 
较 差 —1.5 尝 ; 黑 线 ; 流 汗 ; 回 ; 困 ; 睡觉 ; 打 哈 欠 ; 左 哼 哼 ; 右 哼 哼 ; 吃惊 ; 闭 嘴 ; 懒得 理 你 
差 -2 快 呈 了 ; 草 泥 马 ; xb 压力 ; 吐血 ; 衰 ; 委 届 ; 吐 ; 生病 ; 巨 汗 ; 非常 汗 ; 翡 催 ; 石化 ; 结 冰 ; 给 跪 了 
很 差 -2.5 怒 ; 怒 骂 ; 抓 狂 ; 骨 溃 ; 哼 ; 流泪 ; 骂 视 ;失望 ; 狂躁 症 ; 弱 
表 2 可 信和 度 检验 结果 通过 改进 后 的 情感 词典 的 微 博 情感 分 析 方 法 , 计 
轮 次 Kappa 值 算出 数据 集 所 有 微 博文 本 情感 倾向 值 。 其 中 正面 情感 
第 1 轮 0.46 倾向 的 微 博文 本 有 3 196 条 , 中 立 的 微 博 文本 有 26 条， 
第 2 办 059 负面 情感 倾向 的 微 博文 本 有 1 778 条 。 可 以 看 出 ,A 手 
第 3 轮 机 在 消费 群体 中 的 口碑 还 是 比较 好 的 , 可 以 预计 手机 
A wy 投入 市 场 之 后 的 销售 前 景 还 是 比较 乐观 的 。 
(3) 效果 对 比 4.2 用户 群体 识别 
经 过 加 入 转折 词 处 理 以 及 表情 符号 处 理 改进 后 的 使 用 SPSS 17.0 对 所 有 实验 样本 进行 Ward 上 聚 类 


词典 和 传统 词典 的 比较 结果 如 表 3 所 示 。 由 此 可 以 看 出 ，” 分析。 采用 的 聚 类 指标 有 5 个 ,除了 年 龄 、 性 别 和 地 
改进 后 的 算法 的 准确 率 和 召回 率 的 宏 平均 值 都 比 传统 。“ 域 三 种 个 人 基本 信息 以 外 , 还 加 入 了 IT 从 业 人 员 、 学 


方法 高 。 生 及 其 他 ”以 及 “发 布 微 博 所 使 用 的 终端 ?两 个 指标 。 因 
为 根据 市 场 反 应 , IT 从 业 人 员 和 学 生 为 其 主要 消费 者 
ee 体 。 最 终 将 所 有 微 博 发 布 者 聚 为 9 个 不 同 的 类 别 
半 。 最 终 六 微 忆 聚 为 9 ~\ 同 的 类 别 。 
a 传统 算法 改进 后 的 算法 sla es 
9 得 到 的 结果 得 到 的 结果 通过 单 因素 方差 分 析 表 明 所 有 指标 的 显著 性 水 平 P 
Macro-P 0.7362 0.8457 值 ) 均 小 于 0.05, 为 可 接受 范围 。 表 4 为 聚 类 的 最 终结 
Macro-R 0.7498 0.8590 果 以 及 各 个 类 别 的 特征 以 及 群体 关键 字 。 
表 4 用户 群体 特征 识别 结果 
群体 关键 字 用 户 数 目 主要 特征 
1、 主 要 是 金融 行业 从 业者 ; 大 多 为 男性 ; 
投资 者 2、 主 要 来 自 于 北京 、 上 海 、 广 东 和 香港 等 经 济 发 达 地 区 ; 
2 3、 微 博 主要 通过 iPhone 手机 客户 端 发 布 ; 
4、 主 要 集中 在 35-45 岁 和 45-55 岁 两 个 年 龄 段 。 


1、 主 要 是 移动 互联 网 和 IT 企业 的 企业 主 和 管理 层 ; 
2、 主 要 来 自 于 北京 和 广东 两 个 地 区 ; 
IT 业 精 英 209 3、 微 博 主要 通过 iPhone、 三 星 Galaxy 手机 客户 端 和 其 他 Android 系统 平台 发 布 ， 其 中 
包含 少量 小 米 手 机 , 但 比重 仅 占 到 8%; 
4、 主 要 集中 在 35-45 岁 年 龄 段 ; 大 多 为 男性 。 


、 主 要 集中 在 15-25 岁 和 25-35 岁 两 个 年 龄 段 ; 


站 1 
2 、 微 博 主要 通过 个 人 电脑 或 者 是 类 似 塞 班 这 样 的 老式 智能 手机 系统 发 布 。 
1、 主 要 是 IT 企业 官方 微 博 和 IT 从 业 人 员 ; 
2 、 主 要 来 自 于 北京 和 广东 两 个 地 区 : 
IT 从 业 人 员 916 3、 微 博 主 要 通过 三 星 Galaxy, 小 米 手机 客户 端 和 其 他 Android 系统 平台 发 布 , 小米 手 机 


比重 为 33%; 
4、 主 要 集中 在 25-35 岁 和 35-45 岁 两 个 年 龄 段 。 


数据 分 析 与 知识 发现 
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( 续 表 ) 
群体 关键 字 用 户 数目 主要 特征 
1、 时 尚 杂志 官方 微 博 ,企业 白领 和 主要 从 事 模特 、 设 计 师 等 工作 的 时 尚 潮流 女 填 ; 
So 2、 主 要 来 自 于 北京 、 上 海 、 香 港 和 海外 ; 
时 尚 女性 640 3、 微 博 主要 通过 iPhone 和 三 星 Galaxy 手机 客户 端 发 布 
4、 主 要 集中 在 15-25 岁 和 25-35 岁 两 个 年 龄 段 。 


1、 微 博 主要 通过 三 星 Galaxy、 小 米 手机 客户 端 、 塞 班 和 划 
大 龄 消费 者 378 米 手 机 比重 为 0.02%; 
2、 年 龄 段 主 要 集中 在 35-45 岁 以 及 45-55 岁 两 个 年 龄 段 。 


他 Android 系统 平台 发 布 ， 


Cty 
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1、 主 要 是 智能 手机 论坛 官方 微 博 以 及 智能 手机 分 析 师 、 发 烧 友 ; 
智能 手机 发 烧 友 552 2、 主 要 来 自 于 北京 、 上 海 和 广东 三 个 地 区 ; 
3、 主 要 集中 于 25-35 岁 年 龄 段 。 
= 女 Sa 1、 微 博 主要 通过 个 人 电脑 或 者 是 类 似 于 塞 班 这 样 的 老式 智能 手机 系统 发 布 ; 
和 2、 主 要 集中 在 15-25 岁 和 25-35 岁 两 个 年 龄 段 。 
青年 学 生 981 1、 主 要 集中 在 15-25 岁 年 龄 段 。 
4.3 用户 影响 力 分 析 计算 出 这 6 个 用 户 的 单 指标 测度 值 ， 用 和 矩阵 形式 
在 对 微 博 用 户 影响 力 进行 分 析 时 , 本 文选 取 微 博 。 表示 如 下 : 
站 中 较为 常用 的 属性 指标 : 粉丝 数 、 微 博 被 评论 数 、 微 1 0 0 
博 被 转发 数 。 本 文 加 入 两 个 新 的 指标 : “粉丝 数 /关注 数 ” 0 0.0789 0.9211 
以 及 “粉丝 数 / 原 创 微 博 数 ”。 表 5 是 根据 K-means 聚 类 
Ws 人 缠 全 (sa =| 0.8384 0.1616 0 
算法 聚 类 后 的 结果 。 
本 三 0 0.3260 0.6740 
= 表 5 各 类 别 评价 指标 等 级 标准 
C > a i a 3 奴 0 0.9583 0.0417 
粉丝 数 [10000,+%) [1000,10000) [0,1000) 1 0 0 
a 评论 数 [50,+%) [1,50) 0 0 0.4082 0.5918 
-NN 转发 数 100, +oo 1,100 0 
(5 oy ey (Vn)ss=| 0 0.6054 0.3946 
粉丝 数 /关注 数 。 [100,+%) [1,100) 0 
= 粉丝 数 / 微 博 数 。 [50,+oe) [2,50) [0,2) , 9, 
| | ee 0.8309 0.1691 0 
根据 确定 好 的 用 户 影 响 力 评价 指标 等 级 标准 以 及 
ee § y Sa ys NS 4 1 0 0 
单 指标 未 确 知 测度 计算 方法 , 构造 出 关于 评价 对 象 的 
单 指标 的 未 确 知 测度 函数 。 表 6 列举 了 6 个 用 户 的 影 0 0.2041 0.7259 
响 力 识别 过 程 。 (Vj)s3 =| 0.2121 0.7879 0 
表 6 j 户 各 指标 数值 0.2973 0.7025 0 
用 户 名 粉丝 数 。” 评论 数 ”转发 数 ”粉丝 数 /粉丝 数 / 0 0.2326 0.7674 
(个 ) (条 ) (条 ) 关注 数 。” 人 微 博 数 
A 11 305 4 92 25.1222 25.3475 1 0 0 
B 42 984 54 200 55.4632 7.4547 1 0 0 
C 147 906 0 891 68.3897 7.5824 
(Ma jr )sx3 = 1 0 0 
D 121 846 130 906 74.1607 ”14.0262 
E 1 050 3 7 2.4083 0.2385 0.4258 0.5742 0 
F 1 123 4 0 0.5831 2.0912 0 0.5011 0.4989 
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V | 
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42 (一 
0.3 
加 , 2 


ww 


01 


es 


f 
Sa 


0 0.0111 0.9889 

0 0.0816 0.9184 
(dsjr)sx3 =| 0 0.1212 0.8788 
0 0 1 
0 0 1 
0.0273 0.9727 
0.1224 0.8776 
(hjt)sx3 = 0 1 
0 1 


0 0.0038 0.9962 
由 公式 (5)- 公 式 (7) 测 算得 出 以 上 6 个 用 户 各 个 单 
指标 测度 评价 方案 的 多 指标 的 综合 测度 评价 矩阵 为 : 
0.4190 0.3237 0.1990 
0.6091 0.1665 0.1544 
0.3642 0.3469 0.2890 
A= W.(%e) 加 
0.7829 0.1309 0.0685 


0 0.0376 0.9624 


0 0.1166 0.9737 
根据 综合 测度 矩阵 A, 分别 对 6 个 用 户 的 影响 力 
进行 识别 并 排序 , 取 4 = 0.6 ,在 此 基础 下 , 最终 得 到 6 
个 用 户 的 影响 力 如 下 : 
pi =2.1781, p, =2.600, p3 =2.0809, 
pa =2.7880, ps =1.0376, pe =1.0115 


影响 力 值 排序 为 py > p, > pi > p;3 > ps > pe。 

在 最 终结 果 中 , 用 户 C 虽然 为 6 个 用 户 里 面粉 丝 
数 最 高 的 , 但 是 影响 力 值 并 不 高 ,可 以 看 出 , 运用 这 
种 综合 的 未 确 知 测度 算法 测算 出 的 用 户 影响 力 , 能 
效 排除 微 博 中 的 僵尸 粉 、 网 络 水 军 等 的 影响 , 相 较 于 
传统 方法 判定 用 户 的 影响 力 , 最终 结果 更 客观 。 

最 终 , 通过 未 确 知 测度 模型 测算 出 属于 第 一 影响 
力 等 级 的 微 博 用 户 为 47 名 , 第 二 影响 力 等 级 的 微 博 发 
表 者 为 265 名 , 第 三 等 级 的 微 博 发 表 者 为 4688 名 。 
4.4 结果 分 析 

通过 前 面 的 实验 数据 计算 求 得 最 终 的 基于 微 博 用 
户 群 体 的 价值 矩阵 ， 如 图 1 所 示 。 
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图 1 基于 微 博 的 A 手 机 客户 价值 矩阵 


从 图 1 可 以 看 出 , 群体 2GT 业 精英 ) 和 群体 $( 时 尚 
女性 ) 为 “< 明星 用 户 ” 这 表明 , 在 A 手 机 的 所 有 消费 者 群 
体 中 , 喜欢 追赶 时 襄 的 女性 群体 .在 开行 业 从 业 人 员 、 
公司 中 高 层 管理 者 不 仅 更 青睐 这 项 产品 , 而 且 这 两 个 
类 型 的 消费 者 的 影响 力也 较 大 , 一 定 程度 上 能 引导 其 
他 消费 者 群体 购买 A 手机 。 因 此 , 企业 在 制定 营销 策 
略 时 ， 如 何 为 这 两 类 消费 者 群体 提供 更 优质 的 产品 和 
服务 ， 以 及 如 何 利用 这 两 类 消费 者 群体 创造 更 高 的 价 
值 将 是 关键 点 。 和 群体 6( 大 龄 消费 者 ) 和 群体 3( 宅 男 ) 为 
“ 瘦 狗 ”用 户 。 这 表明 这 两 类 消费 者 群体 对 A 手机 不 感 
兴趣 或 者 持 负面 态度 , 在 今后 的 生活 中 也 不 大 可 能 购 
买 使 用 A 手机 。 企 业 在 做 产品 营销 时 , 对 这 类 用 户 不 
应 投入 过 高 期 望 和 过 多 的 营销 成 本 和 精力 。 


S 结 语 


本 文 以 目前 比较 流行 的 智能 手机 A 为 研究 对 象 ， 
新 浪 微 博 中 收集 到 的 数据 为 研究 样本 ,基于 微 博 用 
户 情感 分 析 技术 , 用 户 影响 力 识别 技术 以 及 用 户 群 体 
特征 分 析 技术 进行 关于 消费 者 群体 特征 分 析 的 研究 。 
从 实验 结果 可 以 看 出 , A 手机 更 受 喜 欢 追 赶 时 瞩 的 女 
性 群体 以 及 在 开行 业 从 业 人 员 的 追捧 ,这 两 个 群体 能 
更 有 效 地 影响 消费 者 购买 该 手机 ， 而 大 龄 消费 者 和 宅 
男 能 对 A 手机 持 和 否定 态度 。 但 文章 仍 存在 一 些 不 足 
在 进行 文本 情感 分 析 时 ， 新 方法 效果 虽然 有 进步 , 但 
是 并 没有 考虑 网 络 流行 语言 以 及 一 些 其 他 因素 的 影 
啊 ， 使 得 有 些 文本 仍然 不 能 被 准确 识别 ， 对 实验 结 
造成 一 定 误差 。 另 外 在 进行 用 户 群 体 特征 分 析 时 ,对 
于 4 个 用 户 群 体 象限 的 划分 , 仅仅 是 根据 用 户 群 体 平 


NE 


201712.01363v1 


chinaXiv 


均 影 
不 十 
采用 


响 力 值 及 用 户 群体 总 体 情感 值 进行 测算 ,结果 3 
分 严谨 。 在 今后 的 研究 中 , 应 结合 更 多 影响 因子 
更 科学 的 算法 进行 用 户 群 体 象限 的 划分 。 
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Analyzing Characteristics of Weibo Users Based on Their Sentiments 
and Influences -一 一 Case Study of Cell Phone Brand 


He Yue YinXiaojia Zhu Chao 
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Abstract: [Objective] This study tries to identify the characteristics of consumers, aiming to improve the performance 
of accurate marketing. [Methods] First, we conducted sentiment analysis of the Weibo texts. Then, we divided the 
Weibo users into nine groups with Ward clustering technique, and identified their influences. Thirdly, we analyzed each 
user group from the perspectives of sentiment and influence. Finally, we extracted the users” characteristics with a 
modified customer value matrix. [Results] We found significant differences among users’ sentiments on a specific cell 
phone brand. The fashion-chasing women and IT industry workers were in favor of this brand. They could also 
convince members of other groups choose the same brand. [Limitations] We only included the common indicators to 
examine Weibo users” influences. [Conclusions] The proposed method could effectively identify consumers’ 
characteristics and promote accurate marketing. 
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